Σε αυτό το στάδιο εξερευνούμε τα δεδομένα έτσι ώστε να τα "γνωρίσουμε καλύτερα". Τα ερωτήματα που θα απαντηθούν από τα δεδομένα σε αυτό το στάδιο:

Με τη συνάρτηση df.groupby().mean().nlargest() εντοπίζουμε τους χρήστες με τους περισσότερους ακολούθους και τους κατατάσουμε με το όνομα χρήστη τους.

Βρίσκουμε τη περιοχή από την οποία δημοσιεύτηκαν τα περισσότερα tweets.

Υπολογίζουμε τα Tweets που περιέχουν hashtag, το οποίο συμβολίζεται με '#'.

Με ανάλογο τρόπο μπορούμε να εντοπίσουμε και τα tweets που δεν περιέχουν hashtag σε μια συλλογή με tweets.

Υπολογίζουμε τα tweets που περιέχουν link και στη συνέχεια βλέπουμε με την εντολή sum() τον αριθμό τους.

Επιβεβαιώνουμε την ύπαρξη link σε κάποιες από τις εγγραφές

Υπολογίζουμε τα tweets που δεν περιέχουν link και στη συνέχεια βλέπουμε με την εντολή sum() τον αριθμό τους.

Υπολογίζουμε τα tweets που περιέχουν αναφορά (mention) η οποία στο Twitter συμβολίζεται με @.

Υπολογίζουμε τα tweets που είναι retweets και όχι αυτούσια. Στο twitter αυτό συμβολίζεται με RT